Optimización de Políticas Guiada por Física con Autodestilación Descubre PGPO, un nuevo método de optimización guiado por la física que estabiliza el post-entrenamiento de LLMs, mejorando hasta 4.5 puntos en Science-QA. 2026-06-03 · 2 min